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摘要 : [目的 /意义 ] 提出 和 构建 网 络 和 与 情 衍 进 指数 ,以 描述 网 络 和 与 情 演 化 过 程 中 常 衍生 出 新 的 子 话题 的 现 
象 ,对 于 和 与 情 预 警 、 预 测 具 有 重要 的 理论 及 实践 意义 。[ 方 法 /过 程 ] 以 文本 聚 类 结果 和 文本 聚 类 有 效 性 为 依 
据 ,提出 网 络 和 与 情 衍 进 的 判别 标准 和 和 与 情 衍 进 指数 的 构建 过 程 ,并 以 “教科 书 老 赖 ”这 一 事件 作为 样本 数据 进行 
实证 分 析 。[ 结果 /结论 ] 所 构建 的 与 情 衍 进 速率 指数 可 以 用 于 描述 与 情 衍 进 。 在 突 发 期 阶段 话题 与 情 衍 进 指 
数 最 高 ,此 后 逐渐 下 降 ,这 一 阶段 的 与 情 衍 进 最 为 剧烈 , 子 话 题 的 出 现 呈 现 爆 发 性 增长 ; 僵 情 衍 进 指数 在 与 情 蔓 
延期 内 出 现 阶梯 式 下 降 ,此 后 保持 为 负 值 ,与 情 的 子 话 题 开 始 逐 渐 减 少 ,与 情 内 容 本 身 由 发 散 转 为 收敛 ;进入 消 
散 期 后 , 子 话题 数量 趋 于 稳定 。 作 为 与 情 衍 进 速率 的 测度 和 与 情 衍 进 的 判别 方式 ,与 情 衍 进 指数 为 与 情 监管 和 


友情 预警 提供 了 全 新 的 角度 。 
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网 络 熏 情 相 较 于 传统 媒体 而 言 ,具有 传播 速度 快 、 
信 惩 量 大 .互动 性 强 、 准 入门 槛 低 等 特点 凹 。 在 网 络 环 
境 电 , 社 会 个 体能 够 更 加 便捷 地 发 布 和 获取 信息 ,与 此 
妾 所 的 与 情 的 高 不 确定 性 一 一 与 情 产生 新 子 话题 的 概 
率 硬 指数 性 增长 ,与 情 衍 进 具 有 较 高 的 时 间 人 敏感 
度 宇 一 从 以 下 两 个 方面 对 政府 新 媒体 平台 上 的 与 情 监 
管 提出 了 挑战 :类 似 与 情事 件 产生 联动 效应 ,多 角度 
钼 动 与 情 受 众 神经 ,与 情 存在 进发 的 可 能 ;@@ 相 较 于 原 
台 话 题 , 子 话题 发 生 了 不 可 逆转 的 变化 ,出 现 了 与 原始 
话题 内 涵 不 同 的 “民粹 ” 式 反馈 ,如 “平安 高 管 是 老 赖 ” 
“唐山 法 院 不 作为 ”等 报道 。 此 类 话题 走向 难以 预测 ， 
与 情 受 众 观点 存在 负 向 极 化 风险 。 政 府 及 与 情 相 关 管 
控 部 门 对 热点 与 情 的 衍 进 变化 应 采取 高 度 审 慎 的 态 
度 ,从 而 更 好 地 实现 国家 “塑造 清 朗 的 网 络 空间 ”的 诉 
求 。 同 时 ,将 网 络 与 情 衍 进 这 一 现象 从 网 络 与 情 整 体 
演化 过 程 中 抽出 ,构建 单独 的 指数 ,对 于 网 络 与 情 衍 进 
的 实时 监控 和 快速 响应 而 言 ,具有 重要 的 理论 和 现实 
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目前 而 言 ,国内 外 学 者 对 网 络 奥 情 衍 进 指数 的 相 
关 研 究 主要 集中 于 以 下 2 个 方面 : 

(1) 将 与 情 衍 进 视 为 新 要 素 加 入 和 与 情 传 播 模型 ， 
以 研究 与 情 传播 规律 。 依 据 网 络 往生 与 情 传播 的 不 同 
特性 ,高 宾 等 将 网 络 衍生 与 情 分 为 5 种 类 型 ,对 不 同 的 
网 络 衍 生 与 情 模 型 提出 相应 的 概率 计算 方法 ,并 对 网 
络 衍生 奥 情 的 分 析 流 程 进行 了 具体 的 描述 。K.， Sai- 
to 等 对 网 络 与 情 传播 中 的 各 个 节点 属性 加 以 分 析 , 从 
而 得 出 各 节点 进行 与 情 传播 的 概率 ?1 。D. J. Watts 等 
的 研究 表明 熏 情 传播 的 起 点 是 否 为 意见 领袖 并 非 奥 情 
演进 的 关键 因素 “。 兰 月 新 等 以 logistic 模型 为 基础 
模型 ,构建 网 络 与 情 衍生 效应 的 数学 模型 ,通过 模型 平 
衡 点 及 稳定 性 研究 不 同 信息 异化 条 件 下 正面 衍生 与 情 
和 负面 衍生 舆情 的 传播 特性 5 。 陈 福 集 等 的 研究 在 传 
染病 传播 模型 基础 上 引入 话题 衍生 率 , 构 建 了 SEIRS 
网 络 熏 情 传播 演化 模型 。 通 过 对 传播 闵 值 和 平衡 点 的 
求解 ,从 理论 上 分 析 了 话题 衍生 率 对 传播 态势 的 影响 ， 
并 依据 数值 仿真 模拟 实验 分 析 了 不 同 因素 对 网 络 与 情 
传播 规律 的 影响 ”。 尹 照 成 等 研究 了 衍生 话题 与 原 话 
题 在 网 络 中 独立 传播 并 相互 影响 的 过 程 ,得 出 了 衍生 
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话题 会 使 与 情 传播 过 程 出 现 新 的 高 峰 点 ,话题 的 转发 
率 显 著 提 高 ,导致 话题 演化 的 弛 殉 时 间 延 长 的 结论 
王丽君 等 的 研究 根据 网 络 与 情 衍生 的 共性 规律 ,归纳 
出 3 种 不 同 的 衍生 链 结构 ,并 给 出 了 对 应 的 衍生 概率 
算法 钻 。 总 体 而 言 ,这 一 类 型 研究 的 侧重 点 在 于 研究 
话题 衍生 衍 进 对 于 与 情 整体 演化 传播 过 程 的 影响 ,对 
于 与 情 衍 进 的 判定 标准 并 没有 给 出 较为 具体 的 定义 。 
(2) 针 对 具体 与 情事 件 建立 相关 指标 体系 。 新 晓 
宏 等 结合 以 往 指标 体系 构建 的 相关 研究 ,从 5 个 维度 
构建 了 主题 事件 与 情 指标 体系 ,并 基于 主题 事件 类 指 
标 体 系 , 以 食品 安全 为 例 ,通过 层次 分 析 法 得 出 与 情 指 
标的 权重 ,构建 了 与 情 指数 ”。 贺 恩 峰 等 从 传播 媒体 、 
传播 范围 .传播 速度 ,情绪 倾向 程度 及 相关 度 等 方面 对 
导 情 潜在 影响 力 进行 探索 ,同样 利用 层次 分 析 法 得 出 
旱情 潜在 影响 力 指标 体系 各 因子 权重 系数 ""”。 邓 
汕 导 等 是 于 AHP 和 调查 法 ,对 高 校 网 络 与 情 安全 评估 
een es 
颖 加 情 安全 评估 指标 体系 ”。 这 一 类 型 的 研究 ,其 侧 
im 
有 入 系 以 及 指标 体系 中 各 项 指标 的 权重 ,对 于 与 情 衍 
进 沁 现象 ,尚未 有 单独 的 判别 标准 和 对 应 指标 。 
@D 综 上 所 述 , 目 前 国内 外 学 者 对 于 与 情 衔 进 的 研究 ， 
牙 剖 是 在 研究 与 情 传播 的 过 程 中 加 入 与 情 衍 进 这 一 因 
素 之 对 于 和 与 情 衍 进 本 身 量化 判别 尚 存 研究 空间 。 各 类 
星 情 相关 指标 的 研究 ,也 并 未 对 网 络 与 情 衍 进 这 一 现 
象 趾 独 建立 指标 。 针 对 时 情 或 网 络 热点 的 指数 研究 ， 
除 尝 术 界外 ,工业 界 中 也 存在 着 相关 的 商业 应 用 。 从 
全 车 范围 来 看 ,本 文 所 研究 的 网 络 与 情 衍 进 指数 与 谷 
歌 所 开发 的 Google Trend 存在 一 定 相 似 性 。 
Trend 可 根据 用 户 输入 的 关键 词 ,提供 与 关键 词 相 关 的 
话题 ,其 底层 算法 是 利用 用 户 搜索 关键 词 的 相关 度 来 
提供 相关 话题 ,与 本 文 所 采用 的 文本 聚 类 及 文本 聚 类 
有 效 性 的 研究 思路 并 不 相同 ,同时 其 所 提供 的 相关 话 
题 也 并 非 全 部 为 该 关键 词 的 子 话题 。 若 将 范围 限定 在 
中 文 ,业内 目前 应 用 最 为 广泛 的 网 络 指数 百度 指数 聚 
焦 于 关键 词 搜索 趋势 及 搜索 用 户 画 像 构建 这 两 点 上 ， 
对 于 子 话题 的 衍生 消亡 过 程 也 并 没有 给 出 明确 的 表 
现 。 
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结合 前 人 在 话题 发 现 和 与 情 传 播 方面 的 研究 成 
果 ,本 文 试图 构建 网 络 与 情 衍 进 速 率 指 标 , 用 以 描述 网 
络 与 情 衍 进 这 一 现象 ,从 而 为 网 络 与 情 监控 与 预警 提 
供 新 的 视角 。 本 文 的 研究 ,在 理论 层面 确定 网 络 环境 
下 熏 情 衍 进 标准 ,构建 网 络 与 情 衍 进 速率 的 关键 指数 ; 


在 实践 方面 ,以 新 浪 微 博 "教科 书 式 老 赖 "这 一 热点 话 
题 作 为 样本 数据 进行 文本 聚 类 ,结合 事件 本 身 发 展 的 
时 间 序 列 对 比 聚 类 结果 ,以 验证 网 络 与 情 衍 进 指 数 的 
适用 性 。 


2 熏 情 衍 进 系数 相关 理论 
2.1 与 情 演进 与 与 情 衍 进 
目前 针对 与 情 演进 的 研究 对 于 “与 情 演进 "并 无 


统一 的 定义 ,同时 ,诸多 研究 中 的 “演进 ”“ 演 变 ”"“ 演 
等 概念 并 无 本 质 区 别 "”。 结 合 前 人 对 于 网 络 熏 情 

进 的 研究 ,本 文 将 网 络 与 情 “ 演 进 ” 和 “ 衍 进 ” 的 概念 

as 

(1) 所 谓 网 络 熏 情 演进 ,是 指 单一 网 络 与 情 在 时 
间 、 空 间 、 规 模 \ 议 题 热度、 受众 群体 等 多 个 维度 上 ,从 
发 生 发 展 .高峰 .波动 到 淡化 .消亡 的 整体 过 程 。 在 这 
一 概念 下 ,针对 不 同 奥 情事 件 具 体 如 何 演进 ,国内 学 者 
利用 不 同 的 数学 模型 从 多 个 角度 进行 了 阐述 。 周 昕 等 
以 多 媒体 技术 舆情 分 析 理 论 .信息 传播 理论 为 支撑 ， 
对 网 络 与 情 传播 方式 受 多 媒体 技术 的 影响 情况 加 以 揭 
示 , 深 入 剖析 传统 网 络 与 情 传播 模式 “”。 黄 微 等 人 构 
建 了 微 博 与 情 信 息 老 化 模型 ,为 微 博 与 情 信息 的 监测 
提供 计算 支持 ” 。 

(2) 所 谓 网 络 舆 情 衔 进 , 在 本 文 的 研究 范畴 中 , 特 
此 单 一 网 络 与 情 演 进 过 程 中 ,衍生 出 新 生子 话题 . 子 与 
情 的 过 程 。 正 如 引言 部 分 所 述 , 目 前 舆情 衍 进 的 相关 
研究 多 将 舆情 衍 进 作 为 单一 要 素 纳 入 与 情 传 播 模 型 中 
进行 考量 ,对 于 舆情 衍 进 的 具体 标准 尚 缺乏 深入 的 探 
讨 。 
2.2 ”网络 与 情 衍 进 指数 

根据 前 文 对 网 络 与 情 衍 进 的 定义 ,本 文 对 网 络 僵 
情 衍 进 指数 (Publiec Opinion Derivative Index) 的 定义 如 
下 :网络 与 情 衔 进 指数 ,是 指 单一 网 络 与 情 在 某 一 具体 
时 刻下 ,衍生 出 新 生子 话题 的 速率 。 与 情 衍 进 ,是 与 情 
演进 过 程 中 内 容 丰 富 度 及 与 情 文 本 复杂 度 发 生变 化 的 
过 程 。 正 如 引言 中 所 述 ,现存 的 网 络 舆 情 指标 体系 中 ， 
并 未 针对 网 络 与 情 衍 进 这 一 现象 构建 单独 的 指标 。 本 
文 利用 文本 聚 类 及 聚 类 有 效 性 所 得 出 的 网 络 由 情 衍 进 
指数 ,以 量化 的 方式 对 与 情 衍 进 给 出 了 判别 标准 。 相 
较 于 以 往 关 注 网 络 与 情 演化 整体 过 程 的 指标 体系 而 
言 ,该 指数 专注 于 奥 情 衍 进 这 一 单一 要 素 。 相 关 部 门 
可 通过 监测 网 络 与 情 衍 进 指数 实现 与 情 衍 进 预 警 , 从 
而 有 针对 性 地 进行 与 情 管控 。 
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3 ”网 络 鼻 情 衍 进 指数 构建 

3.1 网 络 鼻 情 衍 进 指数 构建 过 程 

网 络 奥 情 衍 进 指数 的 构建 过 程 如 下 :在 获得 网 络 
与 情 数据 后 ,首先 需要 对 数据 进行 预 处 理 ,这 一 流程 包 
括 了 对 非 标准 化 数据 的 标准 化 处 理 、 对 标准 化 后 的 纯 
文本 与 情 数据 进行 分 词 .删除 停 用 词 等 步骤 ,并 构建 与 
情 词 袋 空间 ;其 次 ,利用 TF-IDF 值 计算 特定 词 权 重 ,再 
利用 下 -Means 聚 类 方法 对 不 同 初始 K 值 下 的 结果 进行 
文本 聚 类 ;最 终 ,对 比 不 同 K 值 下 文本 聚 类 的 聚 类 有 效 
性 结果 ,确定 当前 时 刻 最 优 的 话题 数量 K' ,作为 与 情 
衍 进 的 判别 标准 。 如 图 1 所 示 : 
预 处 理 ， 构 建 


多 媒体 网络 全 


情 词 袋 空间 


结合 时 间 序 列 
计算 衍 进 指数 


利用 TF-IDF is 

值 计算 特 a 

定 词 权 重 生 
是 


_ | 得 出 当前 最 优 
丘 ”话题 数量 K' 


N 
> 图 1 网 络 与 情 衍 进 指数 构建 过 程 


3》2< 文本 预 处 理 与 构建 词 袋 空间 


为 了 对 网 络 与 情 进行 文本 聚 类 ,首先 需要 对 与 情 


jieba 分 词 工具 包 于 Python 环境 下 实现 中 文 文本 分 词 ， 
采用 其 中 的 精准 分 词 模式 ,试图 将 文本 中 的 句子 最 精 
确 地 分 开 , 以 适应 文本 分 析 的 需求 。 在 分 词 后 ,对 数据 
进行 去 除 虚词 代词 等 停 用 词 处 理 以 提高 语料库 的 信 
息 密 度 。 虽 然 jieba 工具 包 中 已 经 包含 了 去 除 停 用 词 
功能 ,但 其 主要 是 为 其 本 身 的 文本 分 析 工 具 所 使 用 ,不 
利于 后 续 分 析 流 程 ,因此 本 文 男 行 采用 了 包含 1 893 
个 常用 中 文 停 用 的 停 用 词 表 ,以 去 除 停 用 词 。 在 去 除 
停 用 词 后 ,统计 所 有 文档 词 集合 ,针对 每 个 文档 构建 向 
量 ,向 量 的 值 即 是 某 一 词 在 该 文档 中 出 现 的 次 数 。 由 
此 , 即 构建 成 功 了 词 袋 空间 VSM (vector space model ) 。 
3.3 利用 TFJDF 计算 特定 词 权重 

针对 已 经 构建 的 词 袋 空 间 , 本 文采 取 TF-IDF (term 
frequency-inverse document frequency ) 方 法 ,将 词 所 出 现 
的 次 数 转化 为 在 语料库 中 的 权 值 。 该 方法 认为 , 字 词 
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的 重要 性 与 它 在 单一 文本 中 所 出 现 的 次 数 成 正比 ,而 
与 它 在 语料库 中 所 出 现 的 频率 成 反比 。 

该 方法 中 , 词 频 (term frequency,TF) 指 某 一 给 定 词 
语 在 某 一 文件 中 出 现 的 频率 ,该 数值 是 对 词 数 (term 
count) 的 归 一 化 ,具体 表达 式 如 下 : 


Dij 
tH. .= 


1 Dn, 
其 中 ,是 词 4 在 文件 中 的 出 现 次 数 ,而 分 母 则 
是 文件 di 中 所 有 字 词 出 现 次 数 之 和 。 

逆向 文件 频率 (inverse document frequency,IDF ) 是 
一 个 词语 在 语料库 中 普遍 重要 性 的 度量 。 对 于 某 一 特 
定 词语 的 IDF, 可 由 总 文件 数 除 以 包含 该 词 文件 数目 
再 对 所 得 结果 取 对 数 而 得 : 


1DI1 

lj:tied}l 
其 中 1D1 为 语料库 中 文件 的 总 数 ,14j: tie dj| | 为 
包含 词语 ti 的 文件 个 数 ,当然 ,如 果 该 词语 不 在 语料库 
中 ,会 导致 被 除数 为 0, 因 此 一 般 情况 下 使 用 1 + 1|j:t 
ed| 1。 

最 终 的 TF-IDF 值 为 : 

thidf; = 本 x idf; 

该 值 为 考虑 到 了 单一 词汇 在 特定 文件 中 所 出 现 的 
高 词 频 和 在 整个 语料库 中 的 低 词 频 后 得 出 的 综合 权重 
值 ,因而 倾向 于 过 滤 掉 常见 词语 ,而 保留 重要 的 高 信息 
量词 。 

通过 计算 词 袋 空间 癌 量 后 的 矩阵 ,其 列 为 所 有 文 
档 词 的 集合 ,每 一 行 代表 一 个 文档 ,而 向 量 的 值 则 为 该 
词 在 整体 语料库 中 和 该 文本 中 的 权 值 。 
3.4 ”基于 K-Means 算法 的 文本 聚 类 

利用 计算 过 TF-IDF 值 的 矩阵 ,可 以 采用 多 种 方式 
进行 聚 类 分 析 。 在 本 文 的 研究 中 ,我 们 采用 K-Means 
算法 进行 文本 聚 类 。 开 -Means 算法 是 一 种 经 典 的 基于 
划分 的 聚 类 算法 ,其 基本 原理 是 首先 随机 选择 K 个 文 
档 ( 在 经 过 TF-IDF 值 计算 后 ,为 矩阵 中 的 一 个 向 量 ) 作 
为 初始 聚 类 点 ,然后 根据 复 中 对 象 的 平均 值 , 将 剩余 文 
档 归 类 给 最 类 似 的 簇 ,同时 更 改 簇 的 平均 值 。 如 此 重 
复 迭 代 一 定 次 数 , 直 至 簇 的 划分 不 再 改变 。 具 体 计 算 
步骤 如 下 所 示 : 

(1) 输 入 语料库 随机 选取 上 行 作为 聚 类 初始 中 心 。 

(2) 将 剩余 数据 中 的 一 个 分 配 至 与 之 欧式 距离 


(Diss (x,y) = A/ 避 (x; -)7) 最 近 的 聚 马 中 。 


(3) 更 新 聚 复 集 合 C 和 聚 簇 均值 。 


idf. =logj | 


{ 和 车 甘 晶 
| 
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(4) 重复 以 上 过 程 , 直至 目标 函数 > 
(arg min 上 9- 由) 收 伊 。 

K-Means 算法 由 于 其 简单 、 高 效 的 特征 在 文本 到 
类 中 得 到 了 广泛 的 应 用 。 
3.5 ”基于 文本 聚 类 有 效 性 指数 的 最 优 话题 数量 判断 

在 传统 的 -Means 聚 类 中 ,除了 初始 聚 类 簇 中 心 
的 选取 外 ,K 值 本 身 的 选取 也 至 关 重 要 。 通 常 而 言 ,K 
值 的 选取 应 基于 行业 经 验 所 得 出 , 尚 无 明确 的 理论 指 
导 , 多 数学 者 所 使 用 的 经 验 规则 为 kw < Vn。 本文 基 
于 “单一 与 情话 题 所 包含 的 子 话题 数量 不 应 超过 20 
个 "这 一 假设 ,选取 K 在 [2,20] 这 一 范围 进行 19 次 文 
本 聚 类 ,并 对 比 不 同 K 值 下 的 文本 聚 类 有 效 性 系数 ,从 
而 得 出 当前 最 优 话题 数量 K'。 
汪 根 据 周 开 乐 等 的 研究 ,针对 聚 类 的 有 效 性 指标 
可 独 为 3 类 :内 部 有 效 性 指标 .外 部 有 效 性 指标 和 相对 
有 驳 性 指标 。 由 于 针对 网 络 与 情 的 文本 聚 类 是 无 监督 
学 于 过 程 ,外 部 信息 是 不 可 用 的 ,内 部 有 效 性 指标 是 应 
用 最 广泛 的 聚 类 有 效 性 指标 。 而 针对 内 部 指标 ,又 通 
党 为 为 3 种 类 型 :基于 数据 集 模糊 划分 的 指标 、 基 于 数 
据 帮 几何 结构 的 指标 和 基于 数据 集 统计 信息 的 指标 。 
基 书 数据 集 样本 几何 结构 的 指标 ,根据 数据 集 本 身 和 
聚 壮 结 果 的 统计 特征 对 聚 类 结果 进行 评估 ,并 根据 聚 
类 荣 果 优 劣 选取 最 佳 聚 类 数 。 这 一 类 型 的 指标 包括 了 
Des -Bouldin( DB ) 指标 .Calinski-Harabasz( CH) 指标 、 
Dt 邮 指标 等 。 本 文采 用 最 为 常用 的 DB 指标 作为 文本 
聚 村 有效 性 的 判断 依据 。 
CDB 指标 利用 类 内 样本 点 到 其 所 属 簇 集聚 类 中 心 
的 距离 来 计算 类 内 的 紧 致 性 ,而 用 各 簇 集聚 类 中 心 之 
间 的 距离 来 表示 类 间 的 分 离 性 ,具体 定义 为 : 
Wi 二 了 


] KK 
nh 一 5m, Ci 

其 中 ,K 为 聚 类 数目 ,Wi; 表示 某 一 类 C, 中 所 有 
样本 到 该 类 聚 类 中 心 的 平均 距离 ,Wi 表示 该 类 C; 中 
所 有 样本 到 另 一 类 C 的 聚 类 中 心 的 平均 距离 , Ci 则 
代表 C; 和 Ci 两 个 类 的 聚 类 中 心 的 距离 。 根 据 DB 指 
标的 定义 不 难 发 现 , 该 指标 越 小 , 则 说 明 类 与 类 之 间 
的 相似 度 越 低 , 从 而 对 应 更 佳 的 聚 类 结果 。 

通过 计算 19 次 不 同人 值 下 的 DB 指标 ,选取 拥 
有 最 小 DB 指标 的 K 值 作 为 最 优 话题 数量 K', 当 
发 生变 化 时 , 即 可 认为 原 熏 情 数据 中 产生 了 新 生 的 
子 话题 (K' 上 升 ) ,或 部 分 子 话题 发 生 了 消亡 (K' 下 
降 ) 。 


3.6 ”结合 时 间 序 列 的 网 络 和 舆情 衍 进 指数 

根据 不 同时 刻 的 最 优 话题 数量 K' ,结合 与 情 本 身 
衍 进 过 程 的 时 间 序 列 , 即 可 得 出 某 一 特定 时 刻 T; 的 网 
络 盘 情 衍 进 指数 PODI( public opinion derivative index ) ， 
具体 定义 为 : 


其 中 ,Ki; 为 Ti 时 刻 的 最 优 话题 数量 ,K,' 代 表 最 优 
话题 数量 变化 为 当前 最 优 话 题 数量 前 的 K' ,T. 则 代表 
最 优 话题 数量 变 为 K ' 的 时 刻 。 根 据 PODI 的 定义 ,由 
于 KK' 旺 阶梯 型 变化 趋势 ,因此 PODI 也 随 之 呈现 阶梯 
型 变化 ,并 在 K' 不 发 生变 化 时 , 呈 随 时 间 而 下 降 的 趋 
势 。 


4 ”网 络 熏 情 衍 进 指数 3 
4.1 ”数据 源 选择 


本 文采 用 2017 年 11 月 至 12 月 间 在 网 络 空 间 引 
发 热 议 的 “教科 书 式 老 赖 ” 事 件 , 针 对 网 络 与 情 衍 进 指 
数 进行 实证 研究 。2017 年 11 月 22 日 ,由 于 被 告 黄 淑 
芬 声称 自己 没 钱 , 拒 绝 按 照 唐 山 市 丰润 区 人 民法 院 于 
2017 年 6 月 8 日 的 判决 结果 赔付 原告 赵 香 滤 85 万 元 ， 
原告 赵勇 在 微 博 上 发 表 了 名 为 “请 看 什么 是 教科 书 式 
的 要 赖 ” 的 微 博 , 并 曝光 了 他 催促 黄 淑 芬 履行 法 律 判决 
时 的 对 话 ,从 而 在 全 国 网 络 空间 中 引起 极 大 反应 ,是 当 
前 网 络 髓 情 的 典型 事件 ,相关 与 情 量 于 2017 年 11 月 
23 日 达到 顶峰 后 逐渐 老化 。 基 于 此 ,本 文选 取 该 事件 
在 微 博 、 微 信 公 众 号 .今日 头条 3 个 自 媒体 平台 上 的 相 
关 信 息 作为 数据 源 ,以 “教科 书 式 老 赖 "“ 黄 淑 芬 ”“ 认 
真 的 赵 先 森 ”3 个 关键 词 分 别 进行 检索 。 
4.2 数据 采集 

本 文 数据 采集 的 时 间 窗 为 2017 年 11 月 22 日 
0:00 至 2017 年 12 月 12 日 0:00, 从 微 信 公 众 号 、 微 博 、 
今日 头条 3 个 自 媒体 平台 上 针对 “教科 书 式 老 赖 ” 突 发 
事件 网 络 熏 情 相关 信息 (包括 原创 转发 及 评论 ) 共 获 
取 26 848 条 数据 。 获 取 的 数据 库 字 有 段 包括 用 户 名 、 用 
户 ID(UID) ,标题 ,作者 ,发 布 时 间 , 发 布 内 容 、 抓 取 时 
间 、 图 片 标签 .图片 内 容 视频 地 址 、 视 频 描述 等 。 本 文 
在 3 个 自 媒体 平 台 上 针对 “教科 书 式 老 赖 "事件 获取 数 
据 的 过 程 如 下 :中 针 对 微 博 数 据 ,利用 “ 八 爪 鱼 ” 数 据 
采集 器 ,对 在 微 博 搜 索 中 键入 3 个 关键 词 后 的 数据 进 
行 采集 ;采集 内 容 包 括 微 博 中 所 有 的 原创 .转发 和 评论 
的 内 容 发 表 时 间 与 用 户 信息 、 所 包含 图 片 描 述 、 所 包 
含 视频 描述 信息 等 。 最 终 共 搜集 相关 原创 微 博 、 转 发 
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内 容 和 评论 14 652 条 。 外 针对 微 信 公 众 号 ,利用 微 信 
自 融 的 “ 搜 一 搜 " 功 能 ,搜索 3 个 关键 词 后 显示 的 公众 


号 内 容 进 行人 工 采 集 。 采 集 内 容 包括 公众 号 名 、 公 众 
号 描述 信息 ,原创 文章 数量 .公众 号 文章 题目 文章 作 
者 、 发 布 时 间 、 文 章 内 容 、 文 章 阅读 数量 、 文 章 点 赞 数 
量 、 包 含 图 片 描 述 、 包 含 视频 描述 、 视 频 地 址 、 评 站 | 
间 \ 评 论 用 户 名 ,评论 内 容 等 。 最 终 共 搜 集 相关 微 信 公 


ID 在 微 博 发 表 了 "请 看 什么 是 教科 书 式 的 页 赖 ! ”的 博 
文 ,并 曝光 了 他 催促 黄 淑 芬 履行 法 律 判 决 的 对 话 ,引爆 
了 与 情 演进 的 热点 ,与 情 迅 速 进入 突 发 期 (2017 年 11 
月 22-23 日 )。 从 2017 年 11 月 23 日 起 与 情 演 进 进 
人 蔓延 期 (2017 年 11 月 23 日 -12 月 2 日 ), 三 大 自 媒 
体 平台 上 用 户 所 发 表 的 原创 信息 、 转 发 和 评论 数 上 升 
至 峰值 ,最 高 信息 数量 达到 每 日 10 045 条 , 草 延 期 是 


众 号 文章 与 评论 8 554 条 。@@) 针 对 今日 头条 ,采用 网 

页 端 今日 头条 搜索 3 个 关键 字 ,同样 进行 人 工 采 集 ; 采 
集 内 容 包括 文章 标题 ,作者 文章 内 容 、 发 布 时 间 、 图 片 
描述 .评论 用 户 ,评论 内 容 、 评 论 发 布 时 间 等 ,最 终 共 搜 
集 相 关 今日 头条 文章 与 评论 3 642 条 。 其 他 针对 采集 
数据 的 描述 如 表 1 ep 


; 。。 原创 内 容 
平均 文本 ”原创 内 容 。 入 严 
sie 二 ee ,zw 平均 含 图 
类 型 数量 守 息 量 《平均 评论 和 
( 字 ) 。 数量 (条 ) 片 / 视 硕 
”数量 (个 ) 
原创 内 容 2 104 159.71 5.96 0. 87 
评论 12 548 22. 62 
原创 内 容 1 317 577.32 5.49 3.42 
评论 7 237 17.86 
原创 内 容 352 1 458. 94 9.35 4.51 
评论 3 290 18.24 


在 数据 处 理 与 分 析 阶 段 , 本 文采 用 Excel 整理 数 
6 玩 范 化 处 理 获 取 的 数据 字段 后 ,利用 jieba 分 词 工 
具 对 所 获得 的 文本 进行 切 词 ,删除 停 用 词 等 操作 ,形成 
最 外 语义 单元 。 此 后 利用 Python 自 带 的 IDLE 开发 环 


境 则 滞 吾 料 库 构 建 词 袋 空间 .计算 TF -IDF 值 . 利 用 下- 


Means 算法 进行 文本 聚 类 。 随 后 ,利用 DB 指数 对 文本 
聚 类 结果 加 以 检验 ,最 后 得 出 "教科书 式 老 赖 " 于 2017 
年 11 月 22 日 至 2017 年 12 月 11 日 每 一 天 中 的 最 优 话 
题 数 量 ,得 出 每 一 天 的 话题 衍 进 指数 。 

4.3.1 慢 情 信息 量 时 间 分 布 “教科 书 式 老 赖 ”舆情 
事件 的 时 间 演 化 分 布 如 图 2 所 示 。 在 本 文 所 截取 的 时 
间 范 围 内 ,未 有 明显 的 与 情 潜 伏 期 ,但 其 实 该 事件 早 在 
2017 年 4 月 至 6 月 就 已 开始 发 酵 。2017 年 6 月 8 日 ， 

唐山 市 丰润 区 人 民法 院 判 决 被 告 黄 淑 芬 承担 事故 主要 
责任 判 赔偿 85 万 元 , 故 2017 年 6 月 8 日 至 2017 年 11 
月 22 日 期 间 可 视 为 此 次 与 情事 件 的 潜伏 期 ,这 一 期 间 
网 络 与 情 信 息 数 量 相 对 较 少 ,但 持续 时 间 较 长 。2017 
年 11 月 22 日 , 因 黄 淑 芬 一 直 声称 自己 没 钱 拒绝 赔偿 ， 

同时 也 拒绝 与 赵勇 沟通 ,赵勇 以 “认真 的 赵 先 森 ”这 一 
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网 络 与 情事 件数 据 的 主要 集中 阶段 。 至 2017 年 12 月 
1 日 ,赵勇 父亲 赵 香 斌 经 抢救 无 效 死 亡 ,至 此 与 情 进入 
消散 期 (2017 年 12 月 2-11 日 ) ,原创 与 情 信息 .评论 
和 转发 数 均 大 幅 下 降 。 
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图 2 “教科 书 式 老 赖 ”与 情事 件 事件 时 间 分 布 


4.3.2 最 优 话题 数量 时 间 分 布 “教科 书 式 老 赖 "与 
情事 件 最 优 话题 数量 的 时 间 演 化 分 布 如 图 3 所 示 : 


最 优 话 题 数 量 /个 
说 天 而 汪 友 鸯 和 达 


一 


图 3 “教科 书 式 老 赖 ”与 情事 件 最 优 话题 数量 时 间 分 布 


由 文本 聚 类 结果 的 DB 指数 可 知 ,在 和 与 情事 件 进 
入 突 发 期 时 ,与 情 信息 仅 分 为 3 种 不 同类 型 的 话题 ,而 
当 与 情 进 入 蔓延 期 后 ,与 情 开始 逐渐 发 酵 ,网 民 针 对 该 


事件 的 讨论 逐渐 深入 、 分 化 ,与 情 信 息 逐 渐 分 化 ,话题 
数量 在 11 月 26 日 时 达到 峰值 ,达到 8 个 类 型 之 多 。 


在 进入 舆情 葛 延期 的 后 半 段 , 随 着 僵 情 信息 数量 的 不 
上 断 减 少 ,话题 数量 又 开始 逐渐 下 降 ,最 终 在 进入 消散 期 


黄 微 , 朱 镇 远 , 许 烨 婧 ,等 . 网 络 与 情 
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衍 进 指数 构建 与 实证 分 [可 .图 书 情报 工作 ,2019 ,63(20) :26 -33. 


变化 。 此 时 
井 完 比 不 


JE ， 


后 的 第 二 天 (12 月 3 日 ) , 降 至 4 个 后 停止 


可 认为 ,网 民 针对 该 事件 的 讨论 方向 已 经 衍 进 


上 的 话题 数量 以 及 该 话题 所 对 应 的 文本 聚 类 的 关键 词 


如 表 2 所 示 : 


再 出 现 变化 。 在 和 与 情 演进 不 同 阶 段 的 3 个 不 同时 间 点 
表 2 不 同 阶段 最 优 话题 数量 与 对 应 关键 词 
0 pe 话题 对 应 关键 字 话题 内 肖 
突 发 其 3 1 黄 淑 芬 . 刘 明 月 . 母 女 .女儿 .无 炽 、 老 燥 、 良 心 .人潮 .买房 . 愤 乱 …… 对 黄 涉 芬 母 女 行 为 表达 愤怒 
2 ”赵勇 .车祸 .医药 费 .世事 .受害 .赔偿 ,医疗 费 、 官 司 .司机 .正义 …… 同情 支持 赵勇 
3 法院, 执行 ,冻结 ,强制 .法律 ,制裁 ,强制 .执行 .迟到 ,力度 …… 质疑 执法 部 门 不 作为 
草 延 其 8 1 黄 淑 芬 . 刘 明 月 . 母 女 .恶人 .无 炽 、 老 燥 、 良 心 .人潮 .买房 .要 赖 …… 对 黄 涉 芬 母 女 行 为 表达 愤怒 
2 赵勇 ,车祸 ,医药 费 , 音 事 受害 赔偿、 医疗 费 、 善 良 .司机 、 官 司 …… 同情 支持 赵勇 
3 ”法律 .保险 ,制裁 人肉, 拘 留 . 枪 妮 、 建 捕 、 唐 山 ,和解 , 耻 辱 …… 为 赵勇 出 谋划 策 
4 法院 ,执行 ,冻结 \ 正 义 ,强制 .暴力 .执法 .判决 力度 .责任 …… 质疑 执法 部 门 不 作为 
5 老人 父亲, 赵 香 研 受害 人 、 安 好 抢救 ,高尚 心疼、 祝福, 康复 …… 关注 受害 人 赵 香 滤 
6 举报 网络, 微 博 , 奥 论 , 法 律 . 黑 名 单 . 媒 体 .反思 .司法 .道德 …… 反思 处 理 “ 老 赖 "事件 的 有 效 方式 
TT 7 员工 ,代理 . 秤 退 .公司 .工资 高 管 .领导 .开除 .财产 .解决 …… 对 黄 淑 芬 所 在 中 国平 安 公 司 提出 要 求 
这 8 平安 保险 .后 悔 .不 买 .形象 . 藏 视 高层, 产品 ,抵制 .态度 ,企业 …… 对 中 国平 安 公司 本 身 表示 愤 翁 
LL 汪 当 其 4 1 黄 淑 芬 . 刘 明 月 . 母 女 . 老 炽 , 慎 翁 、 人 潜 、 人 性 ,要 囊 、 良 心 . 摆 吕 …… 对 黄 涉 芬 母 女 行为 表达 愤怒 
CO 2 ”赵勇 车祸、 医药 费 . 单 事 .受害 赔偿 .医疗 费 , 司 机 、 老 人 , 赵 香 斌 …… 同情 支持 赵勇 
己 3 微 博 网络, 法 律 .保险 ,制裁 . 奥 论 .媒体 .道德 .举报 .司法 …… 为 赵勇 出 谋划 策 
4 法院 ,执行 ,冻结 \ 正 义 ,强制 .迟到 、 执 法、 判决 力度 .责任 …… 质疑 执法 部 门 不 作为 
通过 对 文本 到 类 结 者 果 的 话题 关键 字 的 分 析 , 可 知 。 。 Ht 坑 。 实 基 草 下 其 消 向 期 
| 书 式 老 赖 "事件 自始至终 最 关键 的 3 个 话题 为 : We bl 
对 弄 淑 芬 母 女 表示 谐 责 、 同 情 受害 人 赵勇 和 质疑 执法 ee 
部 党 不 作为 。 在 进入 蔓延 期 后 ,话题 入 进 至 8 个 子 话 i 100 
本 之 多 ， 除 上 述 3 个 话题 外 , 另 有 为 赵勇 出 谋划 策 , 关 里 om 020017 on 
2 害 人 .反思 “ 老 赖 "事件 的 有 效 处 理 方式 、 对 黄 淑 _1.00 
芬 开 安保 险 公司 提出 要 求 、 质 疑 平安 保险 公司 本 身 等 -2.00 yA 
话题 。 最 终 ,与 情 进入 消散 期 后 ,与 情 热度 逐渐 re 
下 葡 , 原 有 的 8 个 子 话题 逐渐 消散 或 由 于 内 容 趋同 而 RR RR 
eg 4 个 话题 中 ,至 此 话题 衍 进 停止 用 
4.3.3 话题 衍 进 指数 时 间 分 布 根据 不 同时 间 点 上 图 4 “教科 书 式 老 赖 ” 僵 情 事件 话题 
gn 4 所 示 。 由 衍 进 指数 (PODI) 时 间 分 布 
图 4 可知, 话题 衍 进 指数 在 突 发 期 , 即 与 情 迅 速 演化 、 
话题 急剧 分 化 时 达到 最 高 。 进 入 蔓延 期 后 ,每 日 新 话 。 “4 买 验 结果 讨论 
以 往 将 聚 类 算法 和 钼 情 分 析 相 结合 的 研究 中 ,其 


题 产 生 速 度 下 降 , 话 题 衍 进 指数 逐渐 下 降 ,并 在 最 后 话 
题 数 量 达 到 峰值 后 ， 下 ,与 情 衍 进 
指数 由 1 剧烈 下 降 至 -2 ,这 一 阶梯 式 的 下 降 过 程 说 明 
与 情 子 话 题 由 增长 转 为 减少 ,与 情 内 容 本 身 由 发 散 转 
为 收敛 。 进 入 熏 情 消散 期 后 ,最 优 话 题 数量 趋 于 稳定 ， 
不 再 发 生变 化 ,话题 衔 进 指数 稳定 在 负数 ,上 且 绝对 值 不 
断 下 降 。 同 时 结合 图 3、 表 2 及 图 4, 不 难 发 现 ， 教 科 
书 式 老 赖 ”与 情事 件 中 ,与 情话 题 就 如 与 情 信息 量 本 身 

般 ,在 突 发 期 - 草 延 期 - 消散 期 这 一 过 程 中 ,经 历 了 
爆发 一 一 发 展 一 一 收敛 一 一 稳定 的 发 展 过 程 。 


11 月 27 日 , 鼻 ' 


针对 算法 本 身 的 有 效 性 及 科学 性 主要 通过 聚 类 算法 的 
计算 。 


准确 率 来 进 和 


算 公 式 如 下 所 示 : 


了 


percision 


=N 


correct 


AN 


准确 率 ( Precesion ) 评价 标准 的 计 


total 


其 中 Nu 指 聚 类 算法 正确 的 文档 和 实际 类 别 一 
致 的 文档 数量 ,Nu 为 实际 聚 类 的 文档 数量 。 

实证 分 析 数 据 中 所 包含 子 话题 类 别 及 数量 不 存在 
客观 的 界定 方式 。 为 了 验证 本 文 提出 的 根据 文本 聚 类 


有 效 性 DB 指数 所 得 出 的 聚 类 


效果 ,笔者 男 采 集 了 
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2019 年 5 月 内 国际 政治 、 美 食 教 育 、 医 疗 4 个 类 别 的 
微 博 评论 信息 , 共 2 240 条 评论 。 在 实际 计算 过 程 中 ， 
为 多 次 验证 聚 类 算法 的 准确 率 ,首先 采用 国际 政治 . 美 
食 .教育 3 类 微 博 数据 作为 数据 集 1 ,再 采用 全 部 4 类 
微 博 评论 数据 作为 数据 集 2。 针 对 数据 集 1 和 数据 集 
2 ,分 别 用 DBSCAN 算法 .层次 聚 类 算法 和 本 文采 用 的 
引入 DB 指数 的 改进 K-Means 算法 ,从 准确 率 上 进行 对 
比 ,实验 结果 如 表 3 所 示 : 
表 3 文本 聚 类 算法 准确 率 对 比 


算法 DBSCAN 层次 聚 类 改进 人 -means 
平均 准确 率 “数据 集 1 65.3% 69.2% 75.7% 
数据 集 2 53.9% 63.6% 67.3% 


这 一 部 分 的 实验 结果 表明 相 较 于 传统 的 DBSCAN 
和 层次 聚 类 算法 ,引入 聚 类 有 效 性 DB 指数 的 改进 - 
ays 算法 可 以 更 加 准确 地 对 与 情 信息 进行 分 类 。 故 
突 王 分 析 中 各 时 刻 最 优 子 话题 数量 及 聚 类 的 结果 较为 
客观 ,可 视 为 该 时 刻下 子 话题 的 正确 聚 类 。 根 据 该 聚 
类 吾 果 所 得 出 的 与 情 衍 进 指数 也 因此 具有 了 较 好 的 有 
殉 仁 ,可 以 认为 在 描述 与 情 衍 进 这 一 现象 上 具备 客观 


图 论 层面 ,对 与 情 演进 和 与 情 衍 进 的 概念 
进行 了 辨析 ,并 利用 文本 聚 类 和 文本 聚 类 有 效 性 指数 
对 强 情 衍 进 的 具体 含义 进行 了 探讨 。 在 实践 层面 上 ， 
以 ee 教 科 书 式 老 赖 "事件 作为 数据 源 ,通过 探讨 与 情 演 
进 吾 件 .与 情 热度 .与 情 演 进 不 同 阶段 的 文本 聚 类 结 
果 (与 情 衍 进 指数 等 ,以 及 对 比 传统 的 DBSCAN 算法 和 
层次 聚 类 算法 与 本 文 引 入 的 改进 K-Means 算法 的 准确 
率 ,证 实 了 与 情 衍 进 指数 在 描述 与 情 衍 进 这 一 现象 时 
的 可 行 性 。 同 时 ,根据 实证 分 析 中 与 情 衍 进 指数 的 变 
化 可 知 :与 情 在 突 发 期 阶段 话题 衍 进 速 率 最 高 ,此 后 乏 
浙 下 降 , 这 一 阶段 的 与 情 衍 进 最 为 剧烈 , 子 话题 的 出 现 
呈现 爆发 性 增长 ;与 情 衍 进 指数 在 与 情 蔓 延期 内 出 现 
阶梯 式 下 降 , 此 后 保持 为 负 值 ,此 时 与 情 的 子 话题 开始 
逐渐 减少 ,与 情 内 容 本 身 由 发 散 转 为 收敛 ;进入 消散 期 
后 , 子 话题 数量 趋 于 稳定 ,与 情 衍 进 指数 保持 为 负 值 并 
不 断 趋 近 于 0。 和 与 情 衍 进 指数 作为 与 情 衍 进 速率 的 测 
度 和 与 情 衍 进 的 判别 标准 ,为 与 情 监 管 和 与 情 预 警 提 
供 了 全 新 的 角度 。 

下 一 阶段 的 研究 中 ,作者 将 应 用 与 情 衍 进 指数 对 
不 同 领域 .不 同类 型 的 与 情事 件 进行 交叉 对 比 ,以 确定 


一 
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盘 情 事件 中 与 情话 题 是 否 都 遵循 爆发 一 一 发 展 一 一 收 

敛 稳定 这 一 发 展 规律 。 另 一 研究 方向 则 是 结合 

媒体 识别 ,将 多 媒体 与 情 转 为 文本 后 ,与 文本 与 情 一 同 

进行 文本 聚 类 ,对比 其 与 纯 文 本 舆情 是 否 存在 差异 。 
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Establishment of Public Opinion Derivative Index: An Empirical Study in China 
Huang Wei Zhu Zhenyuan Xu Yejing Sun Yue 
School of Management, Jilin University ，Changchun 130022 

Abstract: [Purpose/significance | During the evolution of public opinion ，the derivation of public opinion could 
possess significant value for the forecasting and warning of public opinion both theoretically and empirically. [ Method/ 
process | To investigate the mechanism of public opinion derivation, this paper conducted the study using text clustering 
and DB cluster validity index. It proposed certain standards to judge the occurrence of public opinion derivation and its ac- 
cording velocity index. Furthermore, this paper used an well known public opinion incident called “ Classic Deadbeat” to 
conduct an empirical research. [ Result/conclusion | The result of empirical study shows that: the derivative index rea- 
ches its climax during emergence phase and declined thereafter. The number of sub -topics reaches its climax during the in- 
tegration phase and then declined thereafter; when the number of sub -topics decreased, the derivative index become nega- 
tive ,indicating that the public opinion become stabilized. When the public opinion incident reaches the disappearance 
phase, the number of sub topics become stable and the derivative index remain negative but approach zero. The study of 
deEvative index of public opinion offers a new angle to study public opinion observation and prediction. 


LOKeywords: public opinion derivative derivative index text clustering cluster validity indexes 
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